#! /usr/bin/python

import re

def getHost(collectionFilePath):
	'''
		Nach erfolgreicher Suche der Hosts, ist uns aufgefallen, dass vor jeder gefunden Seite
		das Praefix "ixquick" stand. Da wir jedoch nur die Hosts haben wollen, wird in dieser Funktion
		zum einen das Praefix weggeschnitten und zum anderen werden doppelte Seiten 
		herausgefiltert. Dies geschieht mit Hilfe eines Sets, da ein Set die Eigenschaft besitzt,
		doppelte Eintraege zu entfernen.  
	'''
	fileDescriptor = file(collectionFilePath)
	link = fileDescriptor.readline()
	setOfHost = set()
	pattern = re.compile(r"ixquick(-?)[a-z0-9]*")
	
	while link:
		print"link:", link[0:len(link)-1]
		ixquickIdx = pattern.search(link)
		if ixquickIdx :
			print "not add"
		else:
			setOfHost.add(link[0:len(link)-1])
		link = fileDescriptor.readline()
	print len(setOfHost)
	return setOfHost

if __name__ == "__main__":
	getHost("collectListOfHost")
	
	
	
	
